越来越多的机器学习方法用于解决旅行推销员问题。但是,这些方法通常需要解决训练或使用需要大量调整的复杂强化学习方法的实例。为了避免这些问题,我们引入了一种新颖的无监督学习方法。我们使用针对TSP的整数线性程序的放松来构建不需要正确实例标签的损耗函数。随着离散化的可变,其最小值与最佳或近乎最佳的解决方案一致。此外,此损耗函数是可区分的,因此可以直接用于训练神经网络。我们将损失函数与图形神经网络和欧几里得和非对称TSP的设计受控实验一起使用。我们的方法优于监督学习不需要大型标记数据集的优势。此外,我们的方法的性能超过了不对称TSP的强化学习,并且与欧几里得实例的强化学习相当。与增强学习相比,我们的方法也更稳定,更容易训练。
translated by 谷歌翻译